商汤大语言模型应用“商量SenseChat”已正式向公众用户开放。作者丨王非
在2023年上半年财报发布后,商汤集团董事会执行主席兼首席执行官徐立博士的表态,是总结也是期待。作为一家成立于2014年的AI公司,在AI领域已布局近十年,在大模型上也已深耕超五年。就在8月31日,商汤日日新大模型旗下大语言模型应用“商量SenseChat”正式面向公众用户开放服务,所有人均可通过访问https://chat.sensetime.com或通过商汤官网使用。机会是留给有准备的人的,正如风只对能利用它的人才是动力。于是,踩在生成式AI、ChatGPT等行业风口上,商汤凭借提前布局的商业眼光以及多年深耕积累的技术积淀,成为当下颇为稳健的AI投资标的之一 ,也给自身未来业务的拓展带来了无限空间。依托日日新大模型体系和AI大装置SenseCore,2023年上半年,商汤生成式AI相关收入取得了670.4%同比增长,对集团业务的贡献迅速提升至20.3%。财报显示,上半年商汤总收入为14.33亿元,同比增长1.3%。在官方发布的2023年中期业绩全景图中,商汤使用其文生图创作平台“秒画SenseMirage”,为自己创作了一幅科技元素满满的蝴蝶图画。
长期坚定底层技术研发投入,AGI时代占得先机
据不完全统计,全球已发布数百个大模型,仅在中国就发布了100多个。在被称为AGI(通用人工智能)时代或AI 2.0的当下,“百模大战”愈演愈烈。然而,模型训练成本高且频繁、数据获取难清洗也难、技术人才“百万年薪”却又凤毛麟角……诸多因素限制着大模型相关公司的快速增长。行业里,只有少数几个“先行者”和“卖铲人”,占得了先机。放眼国内互联网大厂,BAT无需多言,天然自成“体系”。商汤则凭借“多年来一直积极投入建设超大规模的算力,也一直训练越来越大的模型”,得以与巨头比肩。其中,强大的AI基础设施,正是商汤的立身之本、成事之基。
商汤于2020年启动建设的亚洲最大人工智能计算中心AIDC,已在2022年1月启用,算力节点也不断从上海拓展至广州、重庆、深圳、福建。2022年9月,商汤大装置AI云对外发布,并于今年2月25日正式上线。与此同时,商汤大装置持续扩建,在今年3月底就完成2.7万块GPU的部署并实现了5 ExaFLOPS的算力输出能力,可最多支持20个千亿参数量大模型(以千卡并行)同时训练,最高可支持万亿参数超大模型的训练。目前,商汤大装置上线GPU数量已提升至约30000块,峰值算力不断扩充,已提升20%至6 ExaFLOPS。在训练数据方面,商汤每月可产出约2万亿token的高质量数据,支持更加强大的基模型的训练,预计年底高质量数据储备将突破10万亿token。同时,商汤还投入了数百台服务器搭载千卡GPU的计算资源,采用算法结合人工的方法对原始语料数据进行分门别类的精细化清洗,以确保数据的质量、安全性和价值观都符合要求。由于OpenAI从未公开过其实验过程、数据配方等,外界无从知道他是怎么训练大模型的,训练中的一次次试错,是需要支付较高的时间成本和金钱成本的。凭借大装置这一强力后盾,在大算力的支撑下,商汤方才有底气坚持做原创的大模型技术,并进行不断的实验和试错。多年的大装置建造,以及大模型开发,自然离不开商汤在研发上持续不断的投入:2018年至今,商汤累计研发投入已超146亿元。3月28日,商汤公布的2022年财报就曾披露,研发人效相比2021年进一步提高90%,人均每年研发模型数9.35个;累计商用模型数提高了93%至6.7万个。
基模型参数提升至1230亿,多项专业评测超GPT-4
回望商汤自2018年开启的大模型研发之路,可以用八个字概括:持续突破、飞速迭代。早在2019年,商汤便具备了千卡并行的系统能力,使用上千张GPU卡进行单任务训练,推出了10亿参数量规模的视觉模型,实现了当时业界最好的算法效果。2021年11月,商汤联合上海人工智能实验室、清华大学、香港中文大学、上海交通大学共同发布“书生”大模型,并持续联合研发。2022年,商汤成功研发了320亿参数量的通用视觉模型,实现了高性能的目标检测、图像分割和多物体识别算法,并在自动驾驶、工业质检、医疗影像等多个领域得到广泛应用。今年4月10日举办的技术交流日上,商汤正式公布了“日日新SenseNova”大模型体系,并同步推出了自然语言处理、内容生成、自动化数据标注、自定义模型训练等多种大模型及能力。在语言大模型研发上,商量SenseChat1.0是国内最早推出基于千亿参数大语言模型的聊天机器人产品之一。商汤投入超万块GPU,相关技术和产品也一直维持在高速迭代的状态。6月还发布的国内第一个综合性能全面超越GPT-3.5-turbo的基模型“书生·浦语”(InternLM),参数量达1040亿,使用1.6万亿token的多语言语料训练,支持语言达20多种,并在此基础上于7月初发布了商量SenseChat2.0。今年8月,新模型InternLM-123B完成训练,参数量提升至1230亿。这个新模型的语言、知识、理解、推理和学科五大能力均显著提高,在全球51个知名评测集(包括MMLU,、AGIEVAL,、ARC,、CEval,、Race,、GSM8K等)共计30万道问题集合上测试成绩整体排名全球第二,超过GPT-3.5-turbo以及Meta新发布的LLaMA2-70B等模型。在主要评测集中,InternLM-123B共有12项成绩排名第一:在综合考试中AGIEval的分数为57.8,超越GPT-4位列第一;在知识问答中CommonSenseQA的分数为88.5,同样如此;在阅读理解中,五项评测成绩均居榜首;在推理中,亦有五项评测成绩排名第一。
值得关注都是,InternLM-123B还具备了自主反思及修正错误的能力,并重点升级了代码解释器及插件调用能力(function calling),可使用python解释器、API调用和搜索三类常用工具来解决复杂任务、灵活搭建AI智能体应用。
截至目前,商汤商量已经在金融、医疗、汽车、地产、能源、传媒、工业制造等众多垂直行业与超过500家客户建立了深度合作,通过提供多种灵活的API接口和服务,为客户提供大模型的各项AI技术和服务,低门槛、低成本、高效率地实现各类生成式AI应用。经受住真实能力和技术商用的双重检验,商汤已然“蝶变”,并开启了新征程。山止川行,风禾尽起。徐立博士希望,商汤“给行业带来更强的大模型能力,助力我们的用户在生成式AI的时代做出颠覆性的产品,来获得成功。”